from pyspark.sql import SparkSession
from pyspark.sql.functions import split, substring

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取CSV文件，并指定编码格式
data = spark.read.csv("GY预约_modified.csv", header=True, encoding="UTF-8")

# 打印模式（schema）
# data.printSchema()
#11
# 分割预约到馆时间字段为日期和时间
data = data.withColumn("日期", split(data["预约到馆时间"], " ")[0])
data = data.withColumn("时间", substring(data["预约到馆时间"], 12, 17))

# 显示处理后的数据
data.show()
